Ahora me ves: Detectando esteganografía evasiva en LLMs
Los LLMs pueden ocultar secretos mediante esteganografía. La detección con sondas lineales se evade, pero se restaura con recontextualización.
Los LLMs pueden ocultar secretos mediante esteganografía. La detección con sondas lineales se evade, pero se restaura con recontextualización.
Descubre cómo los LLMs representan la suma geométricamente y por qué cometen errores. Un nuevo estudio revela la estructura oculta de la aritmética.
¿Las sondas lineales detectan razonamiento o formato? Un estudio revela que la precisión en LLMs se explica por confusores de formato, no por modos de razonamie
Explora la geometría informacional en softmax para entender la codificación semántica en IA. Dirección dual: controla conceptos con precisión.